BilliardPhys-Bench: evaluando el razonamiento físico de los LLM multimodales BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético. 2026-06-03 · 2 min